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(54) Bezeichnung: VERFAHREN ZUR SPRACHEINGABE UND -ERKENNUNG 
^ (57) Abstract: The invention relates to a method for voice input and voice recognito 

< l 2t^S^ or alphabetically assigned input keyboard. Voice input and voice recognition is earned ^ F^** J 
relate to individual words each. Before every won! is entered vocally, the initial letter or a portion of the a phabet that contains said 
£ l^^P^ vocabulary from the entire vocabulary is provided for voice recognition and voice recogmtion of the 
word entered vocally is merely carried out by way of said partial vocabulary. 
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(57) Zusammenfassung: Verfar^enzurSpracheingabeund-erkennungvonW 

FinsaJ ^etnTalphabe-tischen oder alphabetisch belegten Eingabetastatur, wobei die Spracheingabe und ^rkennung in Teilschmten 
eSt STS^^Sne. Won betreffen, und wobei vor dem Ein-sprechen jedes Wortes Uber die ' ^^Jf^ 
An' Lgsbu hstabe oder ein Bereich des Alphabets, der den An-fangsbuchstaben enthalt, " n S e ^ 

Gesamt-Wortschatz rur eine Spracherkennung bereitgestellt und die Spracherkennung des eingesprochenen Wortes allein an hand 
des Teil-Wortschatzes ausgefuhrt wird. 
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Beschreibung 

Verfahren zur Spracheingabe und -erkennung 

Die Erf indung betrif ft ein verfahren zur Spracheingabe und 
-erkennung nach de» Oberbegriff dea anapruchs I zowie werter- 
hin ein Korcmunikations- Oder Datenendgerat und eine Bedzen- 
einheit zur Steuerung eines techniachen Gerates, die ein sol- 
ches Verfahren anwenden. 

Spracherkennungasysteme werden mehr und -ehr zu einer Stan- 
dardk«ponente leistungafahiger Computer, bis hin zu PCs und 
Notebook im mittieren und unteren Preissegment. Die Ge- 
achwindigkeit und Erkennungaleiatung von auf Concern ~t 
ieistungsfahigen Prozessoren und speicberatrukturen laufenden 
Spracherkennungsprograamen genUgen nuttlerweile aogar profea- 
aionellen Snsprttchen . 

IM Zuge dieser Entwicklung wird zunehmend versucht, die 
spraonerkennung auch zur Gebrauchswertateigerung von technr- 
schen Geraten dea taglichen Bedarfs einzuaetzen, ao unter an- 
dere* fur Hobiltelefone, Scbnurloateiefone, PDAa und Fernbe- 
dienungen fur Audio- und videosysteme etc.. Derartzge Gerate 
verfugen zumeiat Uber eine Eingabetastatur, die ndndeatena 
5 ein Ziffern-Eingabefeld und eine Peine von Funktionatasten 
u.fant. Da eine Eingabe von Texten Oder auch nur von Hamen 
Oder langeren steuerbefehlen mittela einer nu-erischen Taata- 
tur gar nicht Oder nur auf unkomfortable Weise meglicb rat, 
ware die Realiaierung einer (hinreichend zuverlassigen) 
.0 Spracherkennung bei derartigen Endgeraten aus Sicht dea Nut- 
2e rs tataachlich hochst v.ttnschenswert. Syateme mit aehr redu- 
ziertem steuerbef ehl-Wortschatz sind auch bereita realisrert 
worden und in praktiachem Gebrauch. 
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,edoch sind die genannten Gerate in der Regei nur „. ezn a 
cheren aikroprozessoren, Mikrocontroliern Oder dxgzta « Sz 
g nalprozessoren sowie It Arbeitsspeichem beschrankter Kapa 
s Hut ausgestattet, die aufgrund ihrer be.chran.tea Rechen- 
„ Spei herieistung eine Einzeiworterkennung nur «. emen 
3 L begrenzten Wortschatz Lassen. Es gibt daber bezspzeis- 
weise nocb i^er keine Mobiltelefone, bei denen die Ezngabe 
einer Kurznachricht (short »essage = SMS, direct durch 
10 Spracheingabe moglich ware. 

in einen anderen Kontext 1st vorgeachiagen worden die Re- 
chenlast der spracherkennung zwischen eine, einfachen Endge- 
rat und eine m Server-Dienst aufzuteilen. Hierbez fznde bez, 
End gerat nur eine Merkaalsextraktion statt, wahrend ale fol- 
g enden Schritte der Spracher— g auf einem It lezstungs- 
fahiger Hardware ausgerusteten Server stattfinden. Brer wer- 
ae n also anspruchsvoUe s P racherkennungsprogra-e auf hochst 
le istungsfahiger Hardware abgearbeitet; das Syst» erzordert 
ab er einen penoanenten serveranschiu* des betreffenden tech- 
nischen Gerates. 

De r Erfindung liegt die Aufgabe zugrunde, ein verbessertes 
Verfahren zur spracheingabe und -erkennung der 
Be n Art anzugeben, das mit reiativ geringer Prozessorlezstung 
und Arbeitsspeicherkapazitat aus.o^t und daher auoh auf 
klei neren technischen Geraten ohne Datenverbindung zu ezne* 
ieistungsfahigen Reohner realisiert warden kann. Diese Auf- 
gabe wird durch ein Verfahren -It den Herman des Anspruchs 
30 1 gelost. 

Die Erfindung schlieBt den grundiegenden Gedanken ein, den 
£ttr eine binreichend komfortable und leistungsf ahige 
Spracherkennung im Alltagsgebrauch (insbesondere fur Steuer- 
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befehle und Textnachrichten geringer bis mittlerer Komplexi- 
tat) erforderlichen Gesamt-Wortschatz in einzeln adressxer- 
und handhabbare Teil-Wortschatze fur die einzelnen Elemente 
eines per Sprache eingegebenen Textes aufzuteilen. Sie 
5 schliefit weiter den Gedanken ein, diese Aufteilung wortweise 
vorzunehmen, und zwar aufgrund der Anfangsbuchstaben der 
Worte des zu erkennenden Textes. Letztlich schlielit die Er- 
findung die uberlegung ein, diese im Ergebnis zu einer Ex- 
traktion eines Teil-Nortschatzes fttr jeweils einzelne Erken- 
10 nungsschritte fahrende Klassif izierung durch Betatigung einer 
Eingabetastatur vorzunehmen. (Unter den Begriff „Eingabeta- 
statur* sollen im Kontext der Erfindung auch gegliederte Exn- 
gabef elder eines Touch-Screen, Folientastenf elder o.a. fal- 
len.) 

15 Das vorgeschlagene Vorgehen reduziert den im einzelnen 

Spracherkennungsschritt zu verarbeiteten Wortschatz und damxt 
den Bedarf an Prozessorleistung und Arbeitsspeicherkapazxtat 
erheblich. Dadurch wird eine Spracherkennung auch bei klexnen 
20 Endgeraten mit reduzierten Prozessor- und Speicherkonf igura- 
tionen sinnvoll und kann beispielsweise die lastige buchsta- 
benweise Eingabe einer Kurznachricht uber die mehrfach be- 
legte Zif ferntastatur eines Handys oder die kaum weniger um- 
standliche Eingabe von Naiaen, Adressen und Telef onnummern xn 
25 einen PDA mittels dessen kleiner alphanumerischer Tastatur 
ersetzen. 

in einer fur eine Vielzahl praktischer Anwendungen bevorzug- 
ten AusfUhrung erfolgt die Unterteilung des Gesamt-Wortschat- 
30 zes in Teil-Wortschatze uber die Eingabe des Anf angsbuchsta- 
bens oder die Kennzeichnung des Bereiches des Alphabets, xn 
dem der Anf angsbuchstabe liegt, uber eine Zif ferntastatur mxt 
zusatzlicher alphabetischer Belegung. Derartige Tastaturen 
sind bei Mobiltelefonen allgemein ublich, haben aber auch bex 
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Festnetz- oder Schnurlostelefonen in den letzten Jahren zu- 
nehmende Verbreitung gefunden. 

Je nach konkreter Realisierungsform des Verfahrens und in Ab- 
hangigkeit vom Voluxaen des Gesamt-Wortschatzes ist dabei vor- 
teilhafterweise eine gegenOber der normalen Texteingabe uber 
Zifferntastatur vereinfachte Handhabung moglich: Statt erne 
bestir^te Zifferntaste zur Auswahl eines bestimmten Buchsta- 
bens eine vorgegebene Anzahl von Malen zu drucken, kann Je- 
wells ein einmaliger Druck zur Spezif izierung des zugehorigen 
Bereiches von Buchstaben ausreichend sein. Der Nutzer der 
Spracherkennung legt also vor dem Einsprechen jedes einzelnen 
Wortes seines Textes bzw. seiner Steueranweisung oder semes 
Dateieintrages durch Drucken einer Taste auf der Ziffernta- 
statur fest, in welche Anfangsbuchstaben-Gruppe das darauf- 
folgende Wort fallt. Unter Anfangsbuchstaben-Gruppe wird da- 
bei die standardisierte Zuordnung der Tasten einer Zrffern- 
tastatur zu einer bestimmten Buchstabengruppe verstanden. So 
bedeutet bei den fur Telefone ublichen Zuordnungen z.B. die 
Eingabe der Ziffer „2* die Anfangsbuchstaben-Gruppe „A, B, 
CT, die Eingabe der Ziffer „3* die Buchstabengruppe „D, E, F 



usw. 



25 



30 



in einer weiteren vorteilhaf ten Ausgestaltung wird durch das 
Drucken der entsprechenden Taste vor dem Einsprechen eines 
Wortes das Spracherkennungssystem jeweils (beispielsweise aus 
einem stromsparenden Bereitschaf tszustand) aktiviert und der 
Beginn der Spracheingabe zeitlich definiert („push-to-talk* 
-Prinzip) . 

Bei dem vorgeschlagenen Verfahren wird der Benutzer zur Ein- 
gabe von Wortfolgen im Sinne des Diktates. eines Textes ge- 
zwungen, jedes Wort einzeln zu sprechen. Hiermit und mit der 
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susatzlich erforderlichen AusfUbrung einer Tastenbetatigung 
1st gegenuber etablierten spracherkennungssystes.en fur lez- 
stungsfahige Computer zwar eine deutliche Ko^orteinbuSe v 
b unden. Hit Blick auf die vergieicbsweise geringe 
fahigkeit dar mit de* vorgeschlagenen Verf ahran zu betrexben- 
den Jtl.lng.rtt.- ergibt sich hieraus Jedoch dar groAe Vor- 
tail, da* das Spracherkennungssystem keine kontinuierliche 
Spracberkennung Oder „ortsegraentierung ausfuhren muB. Dxe 
aufgrund das vorgeschiagenen Verfabrens von vornharein anzu- 
wendende Elnzalwortarkannung benotigt im Vergleicb zur kontx- 
nuiarlichan Erkennung alnas Spracbf lusses arhabUch wenzger 
Kechenleistung. Pas weiteren lassan sich spazlalla Spracbzao- 
della au £ dla Folge dar Anfangsbuchstaben-Gruppen traznzaran, 
die die Erkannung sicherer and schnallar machen konnen. 

Kins wichtige Gruppa von Geraten. bai danan das vorgeschia- 
ge „e Verfahren untar Einsatz ainar Speicherteilungsexnhezt 
,ur partiellen Aktivierung eines Tailbaraichas das Jawez zgan 
Gesamtwortschatz-Speichers angewandt warden kann, sznd Uazna 
Konmunikations- odar Datenendgerate, insbasondare Mobxltele- 
fone, schnurlostalarone, Festnetztelefone and PDAs („Orga- 
nizerM , TaschenUbersetzer etc.. «ahrend bei den erstgenann- 
ten Geraten die Eingabetastatur ublicherweise eine wahlwexse 
aiphabetisch belegbara Zif ferntastatur ist, 1st bei den Gera- 
5 ten der letztgenanntan Gruppe eine acbta alphanumerische Ta- 
statur vorhanden. Dies hat auf die Anwendung das erfindungs- 
aemaaen Verfahrens keinen grundsatzlichen EinfluB, sondern 
erleichtert diasa ahar. Das Vorhandansein von Buchstabenta- 
sten macht die Handhabung von Mehrfach-Tastenbelegungen Uber- 
,0 flttssig und ermbglicht von vornherein aine Dnterteilun, des 
Gesamt-Wortschatzes nach einzelnan Anf angsbuchstaben (statt 
nach Buchstabengruppan, wia es bei* Einsatz einer Ziffern- 
tastatur bevorzugt ware) . 
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Einen besonderen Gebrauchswertvorteil erbringt die mxt der 
Erfindung geschaff ene Moglichkeit der Spracheingabe exner 
Kurznachricht (SMS) bei eineiu Mobiltelef on. Vorteilhaft xst 
aber auch die Moglichkeit der Spracheingabe von Namen xn den 
5 Rufnu^ernspeicher eines Mobil- Oder Festnetztelefons bzw 

von Namen und Adressen in den Adressenspeicher eines PDA. Fur 
die einzelnen Anwendungen werden jeweils spezifische Gesamt- 
Wortschatze (uxagangssprachlicher Grundwortschatz bzw. spezx- 
fischer Namens- und Ortnamens-Wortschatz u.a.) gebildet und 
10 gespeichert und bei der Spracherkennung erf indungsgema* un- 
terteilt. 

Ein weiteres wichtiges Anwendungsgebiet sind Bediengerate zur 
Steuerung, insbesondere zur drahtlosen Ferns teuerung, von 
15 technischen Geraten, beispielsweise Fernbedienungen far 

Audio- und Videoanlagen, Beleuchtungssysteme, Kuchen- und an- 
dere Haushaltsgerate oder auch integrierte Systeme der Hexm- 
oder Kraftfahrzeugelektronik. Hier koimaen je nach konkreter 
Ausfuhrung Ziffern- und Funktionstastaturen oder auch alpha- 
20 numerische Tastaturen zum Einsatz, und der Gesamt-Wortschatz 
ist auf typische Steuerfunktionen zugeschnitten und braucht 
iceine Namen, Ortsnamen etc. zu enthalten. Sein Umfang wird 
tendenziell geringer als derjenige des Gesamt-Wortschatzes 
der oben erwahnten Koxrmunikations- und Datenendgerate sexn, 
25 so daB far bestiitaate Anwendungen hier eine relativ grobe Un- 
terteilung in Einzel-Wortschatze ausreichend sein wird. 

Vorteile und ZweckmaMgkeiten der Erfindung ergeben sich im 
Obrigen aus den UnteransprUchen sowie der nachfolgenden Be- 
30 schreibung eines Ausfahrungsbeispiels anhand der Figur. Dxese 
zeigt ein Funktions-Blockschaltbild von fur die Realisierung 
der Erfindung wesentlichen Komponenten eines Mobiltelef ons 
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MS, das zur Spracheingabe von Kurznachrichten ausgebildet 



ist. 



Das Mobiltelefon MS hat in ublicher Weise (neben einigen, 
5 hier nicht genauer bezeichneten Funktionstasten) eine Zif- 
ferntastatur 1, eine Sprechkapsel 3 und ein mehrzeiliges al- 
phanumerisches Fliissigkristall-Anzeigefeld 5. In einem Kurz- 
nachrichten-Eingabemodus ist die Sprechkapsel 3 mit einem Si- 
gnaleingang einer Spracherkennungsstuf e 7 verbunden, deren 
10 Ausgang mit einem Textdateispeicher 9 sowie dem Anzeigefeld 5 
verbunden ist. Die Zif ferntastatur 1 ist - neben dem Anzeige- 
feld 5 - zum einen mit einer Triggereinheit 11 zur Triggerung 
bzw. Aktivierung der Spracherkennungsstuf e 7 ttber eine Steu- 
ersignalverbindung verbunden. Weiterhin ist die Zif f erntasta- 
15 tur 1 mit einer Speicheradressier- bzw. -teilungsstufe 13 
verbunden, welche einen Gesamtwortschatz-Speicher 15 adres- 
siert, der eine der Anzahl der Buchstaben des Alphabets ent- 
sprechende Mehrzahl von wahlfrei adressierbaren Speicher- 
bereichen 15i umfaAt. Durch die Speicheradressier- bzw. 
20 -teilungsstufe 13 wird der Speicherinhalt jeweils eines 

Speicherbereiches 15i in einen Arbeitswortschatz-Speicher 17 
geladen, der wahrend eines Spracherkennungsschrittes mit der 
Spracherkennungsstuf e 7 als Arbeitsspeicher zusammenwirkt . 

25 Die Funktion der hier beschriebenen Anordnung ergibt sich 

ohne weiteres aus den obigen Erlauterungen zum Verfahren und 
mufi daher nicht naher beschrieben werden. Lediglich illu- 
strierend sei erwahnt, dali beispielsweise zur Eingabe des 
Wortes „Patent' der Nutzer zuerst die Taste mit der Ziffer 7 

30 druckt. Die Triggereinheit 11 aktiviert umgehend die 

Spracherkennungsstuf e 7, und die Speicheradressier- bzw. 
-teilungsstufe uberfuhrt den Speicherinhalt des Speicher- 
bereiches 15i des Gesamtwortschatz-Speichers 15, der zum 
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Anfangsbuchstaben „P* gehort, in den Arbeitswortschatz- 
Speicher 17. Die Spracherkennung lauft nun ausschlieBUch 
bezogen auf Worte mit dem Anf angsbuchstaxben „P* ab und 
ergibt das Wort .Patent' in Textform, welches in den Textda- 
teispeicher 9 ubernommen wird, in dem sukzessive die Bestand- 
teile einer Kurznachricht gespeichert werden. 

Mochte der Nutzer den in seinem Rufnummernverzeichnis regi- 
strierten Geschaf tspartner „Niem6ller* anwahlen, druckt er 
die Zifferntaste 6 und spricht den Namen aus. Der Ablauf xst 
derselbe wie bei der spracheingabe des Begriffes .Patents da 
der Gesamtwortschatz-Speicher 15 zugleich als Namensspeicher 
ausgebildet ist. Allerdings wird der Name nicht in eine Text- 
datei ubernoimnen, sondern zur Adressierung des Rufnummern- 
15 speichers genutzt. 

Das Diktieren der SMS „Komme heute abend um 9 Uhr* stellt 
sich als folgender Ablauf dar: Tastendruck „5* - Einsprechen 
„Komme'; Tastendruck „4« - Einsprechen „heute* ; Tastendruck 
20 ,2' - Einsprechen „abend* ; Tastendruck „8* - Einsprechen 
, /Um *; Tastendruck „6* - Einsprechen „9* ; Tastendruck „8* - 
Einsprechen „Uhr* • 

Die Ausfuhrung der Erfindung ist nicht auf die angegebenen 
25 Beispiele und Anwendungsf alle beschrankt, sondern ebenso in 
einer Vielzahl von Abwandlungen moglich, die im Rahmen fach- 
gemafien Handelns liegen. 
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Patentanspruche 

1 verfahren zur Spracheingabe und -erkennung von Worten 
eines vorgegebenen Gesamt-Wortschatzes unter Einsatz einer 

5 alphabetischen oder alphabetisch belegten Eingabetastatur, 
d a d u r c h g e k e n n z e i c h n e t, dafi 
die spracheingabe und -erkennung in Teilschritten erfolgt, 
die jeweils ein einzelnes Wort betreffen, wobei vor dem Exn- 
sprechen jedes Wortes uber die Eingabetastatur dessen An- 

10 fangsbuchstabe oder ein Bereich des Alphabets, der den An- 
fangsbuchstaben enthalt, eingegeben, 

jeweils anhand des Anf angsbuchstabens oder Alphabet-Bereiches 
ein Teil-Wortschatz aus dem Gesamt-Wortschatz ftir erne 
Spracherkennung bereitgestellt und 
15 die spracherkennung des eingegebenen Wortes allein anhand des 
Teil-Wortschatzes ausgefuhrt wird. 

2. Verfahren nach Anspruch 1, 

d a d u r c h g e k e n n z e i c h n e t, dafi 
20 durch Betatigung der Eingabetastatur (1) jeweils eine 
Aktivierung eines Spracherkennungssystems (7) erfolgt. 



3. verfahren nach Anspruch 1 oder 2, 
dadurch gekennzeichnet, daB 
25 als Eingabetastatur (1) eine alphabetisch belegbare Ziffern- 
und/oder Funktionstastatur eingesetzt wird, wobei insbeson- 
dere durch jede Tastenbetatigung eine Gruppe von aufeinan- 
derfolgenden Buchstaben des Alphabets spezif iziert wird. 

30 4 Kommunikations- oder Datenendgerat (MS) , insbesondere Mo- 
biltelefon, Schnurlostelefon, Festnetztelef on oder PDA, mt 
einer Sprechkapsel (3) zur Spracheingabe und einem Spracher- 
kennungssystem (7) zur Spracheingabe und 
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-erkennung von Worten eines vorgegebenen Gesamt-Wortschatzes, 
einer alphabetischen Oder alphabetisch belegten Eingabetasta- 
tur (1) und einem dem Spracherkennungssystem zugeordneten 
Gesamtwortschatz-Speicher (15) , 
Sgekennzeichnet durch 

sine mit der Eingabetastatur verbundene Speicherteilungsern- 
heit (13) zur partiellen Aktivierung eines Teilbereiches 
(151) des Gesamtwortschatz-Speichers im Ansprechen auf erne 
Tastenbetatigung . 

5. Kommunikations- oder Datenendgerat nach Anspruch 4, 
gekennzeichnet durch 

eine mit der Eingabetastatur (1) verbundene Triggerexnhext 
(11) zur Aktivierung des Spracherkennungssystems (7) im 
15 Ansprechen auf eine Tastenbetatigung. 

6. Kommunikations- oder Datenendgerat nach 
Anspruch 4 oder 5, 

d a d u r c h g e k e n n z e i c h n e t, dafi 
20 die Eingabetastatur (!)• eine alphabetisch belegbare Ziffern- 
und/oder Fnnktionstastatur 1st, bei der jede Taste insbeson- 
dere einem Buchstabenbereich des Alphabets zugeordnet ist. 

7 Bedieneinheit zur Steuerung, insbesondere zur drahtlosen 
25 Fernsteuerung, eines technischen Gerates, mit einer Sprech- 
kapsel zur Spracheingabe und einem Spracherkennungssystem zur 
Spracheingabe und" -erkennung von Worten eines vorgegebenen 
Gesamt-Wortschatzes, einer alphabetischen oder alphabetrsch 
belegten Eingabetastatur und einem dem Spracherkennungssystem 
30 zugeordneten Gesamtwortschatz-Speicher, 
gekennzeichnet durch 

eine mit der Eingabetastatur verbundene Speicherteilungsem- 
heit zur partiellen Aktivierung eines Teilbereiches des Ge- 



WO 02/05263 



PCT/DE01/02343 



5 



10 



samtwortschatz-Speichers i» £sprechen auf eine Tastenbeta- 
tigung . 

8. Bedieneinheit nach Anspruch 7, 
gekennzeichnet durch 

eine mit der Eingabetastatur verbundene Triggereinheit zur 
j^ctivierung des Spracherkennungs systems im Ansprechen auf 
eine Tastenbetatigung. 

9. Bedieneinheit nach Anspruch 7 oder 8, 

da d u r c h gekennzeichnet, dali 
die Eingabetastatur eine alphabetisch belegbare Ziffem- 
und/oder Funktionstastatur ist, bei der jede Taste insbeson- 
dere einem Buchstabenbereich des Alphabets zugeordnet lat. 
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